Telegram Group & Telegram Channel
🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования

В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.

🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).

В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.

Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.

Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.

Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/971
Create:
Last Update:

🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования

В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.

🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).

В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.

Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.

Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.

Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/971

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Библиотека собеса по Data Science | вопросы с собеседований from br


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA